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上 一 节 课 ， 我 们 介绍 了 分 类 问题 的 三 种 线性 模型 ， 可 以 用 来 解决 binary classification 和 
multiclass classification 问 题 。 本 节 课 主要 介绍 非 线 性 的 模型 来 解决 分 类 问题 。 


一 、Quadratic Hypothesis 


之 前 介绍 的 线性 模型 ， 在 2D 平 面 上 是 一 条 直线 ， 在 3D 空 间 中 是 一 个 平面 。 数 学 上 ， 我 们 用 线 
性 得 分 函数 s 来 表示 : s 二 w zx。 其 中 ，x 为 特征 值 向 量 ，w 为 权重 ，s 是 线性 的 。 











。 Visually: line -like 
boundary 


emathematically: linear 
scores s—=w’'x 


线性 模型 的 优点 就 是 ， 它 的 VC Dimension 比 较 小 ， 保 证 了 Ein 六 Bowut。 但 是 缺点 也 很 明显 ， 
对 某 些 非 线 性 问题 ， 可 能 会 造成 Bin 很 大 ， 虽然 Bin, 污 Bowt， 但 是 也 造成 Bowt 很 大 ， 分 类 效 
果 不 佳 。 





e theoretically: ovc under 
control :-) 


。 practically: on Some D, 
large En for every line :-( 


为 了 解决 线性 模型 的 缺点 ， 我 们 可 以 使 用 非 线 性 模型 来 进行 分 类 。 例 如 数据 集 D 不 是 线性 可 分 
的 ,而 是 圆 形 可 分 的 ， 圆 形 内 部 是 正 类 ， 外 面 是 负 类 。 假 设 它 的 hypotheses 可 以 写成 : 


hsgp (xX) = sign(—z? — 22 十 0.6) 


基于 这 种 非 线性 思想 ， 我 们 之 前 讨论 的 PLA、Regression 问 题 都 可 以 有 非 线性 的 形式 进行 求 
解 。 





e D not linear separable 


。 but circular separable by a circle of 
radius v0.6 centered at origin: 





hsep (xX) = sign (-x? 一 滁 十 0.6) 


re-derive Circular-PLA, Circular-Regression, 
blahblah ... all over again? :-) | 


下 面 介绍 如 何 设计 这 些 非 线 性 模型 的 演算 法 。 还 是 上 面 介绍 的 平面 圆 形 分 类 例子 ， 它 的 h(x) 的 
权重 w0=0.6，w1=-1，w2=-1， 但 是 h(x) 的 特征 不 是 线性 模型 的 (1, x21, zz )， 而 是 (1, x?, 23) 

。 我 们 令 z0 = 1，z1 = X?，2z2 二 22， 那么 ，h(x) 变 成 : 

h(x) = sign(Wo .20 + W121 + W222) = sign(0.6.z0 —1:.2—1.2)= sign(w’ 2) 
这 种 Zn 一 Zn 的 转换 可 以 看 成 是 x 空间 的 点 映射 妈 z 空 间 中 去 ， 而 在 z 域 中 ， 可 以 用 一 条 直线 进 
行 分 类 ， 也 就 是 从 x 空间 的 圆 形 可 分 映射 到 z 空 间 的 线性 可 分 。z 域 中 的 直线 对 应 于 x 域 中 的 圆 

形 。 因 此 ， 我 们 把 zy, 一 z 这 个 过 程 称 之 为 特征 转换 (Feature Transform) 。 通 过 这 种 特征 
转换 ， 可 以 将 非 线 性 模型 转换 为 另 一 个 域 中 的 线性 模型 。 


国 。 {(Xn, yn)} Circular separable 二 x 
—> {(zn, yn)} linear separable 0 
ET I We 
(nonlinear) feature . 


transform 中 





circular separable in X 一 linear separable in Zz 
Vice versa? 


已 知 x 域 中 国 形 可 分 在 z 域 中 是 线性 可 分 的 ， 那 么 反 过 来 ， 如 果 在 z 域 中 线性 可 分 ， 是 否 在 x 域 中 
一 定 是 圆 形 可 分 的 呢 ? 答案 是 否定 的 。 由 于 权重 向 量 w 取 值 不 同 ，x 域 中 的 hypothesis 可 能 是 加 
形 、 椭 圆 、 双 曲线 等 等 多 种 情况 。 


(20,21,22) =z = P(x) = (1, x?, xZ) 


h(x) = h(z) = sign (W(x)) = sign (% 十 山 闻 十 力 允 ) 













e。 (0.6,—1,—1): circle (o inside) 
e。 (—0.6,+1,+1): circle (o outside) 
。 (0.6,—1,—2): ellipse 

。 (0.6,—1,+2): hyperbola 

。 (0.6,+1,+2): constant o :-) 


目前 讨论 的 x 域 中 的 圆 形 都 是 圆心 过 原点 的 ， 对 于 圆心 不 过 原点 的 一 般 情况 ，z7y, 一 2 映射 公 
式 包含 的 所 有 项 为 : 


Ta(2) = (l,m1y yy mI, L122) 


也 就 是 说 ， 对 于 二 次 hypothesis， 它 包含 二 次 项 、 一 次 项 和 常数 项 1，z 域 中 每 一 条 线 对 应 x 域 中 
的 某 二 次 曲线 的 分 类 方式 ， 也 许 是 圆 ， 也 许 是 椭圆 ， 也 许 是 双 曲 线 等 等 。 那 么 z 域 中 的 
hypothesis 可 以 写成 : 


= {h(x): h(x) = h(®o(x)) for some linear h on 2Z } 
二 、Nonlinear Transform 


上 一 部 分 我 们 定义 了 什么 了 二 次 hypothesis， 那 么 这 部 分 将 介绍 如 何 设计 一 个 好 的 二 次 
hypothesis 来 达到 良好 的 分 类 效果 。 那 么 目标 就 是 在 z 域 中 设计 一 个 最 佳 的 分 类 线 。 


2-Space 七 -Space 
perceptrons 下 quadratic hypotheses 
good perceptron 地 good quadratic hypothesis 
separating perceptron <—> separating quadratic hypothesis 








e Want: get good perceptron in 2Z-space 
e。 known: get good perceptron in xX-space with data {(Xn, yn)} 


todo: get good perceptron in 2Z-space with data {(zn = 中 2(Xn), yn)} 


其 实 ， 做 法 很 简单 ， 利 用 映射 变换 的 思想 ， 通 过 映射 关系 ， 把 x 域 中 的 最 高 阶 二 次 的 多 项 式 转 

换 为 z 域 中 的 一 次 向 量 ， 也 就 是 从 quardratic hypothesis 转 换 成 了 perceptrons 问 题 。 用 z 值 代 蔡 x 
多 项 式 ， 其 中 向 量 z 的 个 数 与 x 域 中 x 多 项 式 的 个 数 一 致 (包含 常数 项 ) 。 这 样 就 可 以 在 z 域 中 利 
用 线性 分 类 模型 进行 分 类 训练 。 训 | 练 好 的 线性 模型 之 后 ， 再 将 z 蔡 换 为 x 的 多 项 式 就 可 以 了 。 具 
体 过 程 如 下 : 


The Nonlinear Transform Steps 








整个 过 程 就 是 通过 映射 关系 ， 换 个 空间 去 做 线性 分 类 ， 重 点 包括 两 个 : 

。 特征 转换 

。 训练 线性 模型 
其 实 ， 我 们 以 前 处 理 机 器 学 习 问题 的 时 候 ， 已 经 做 过 类 似 的 特征 变换 了 。 比 如 数字 识别 问题 ， 
我 们 从 原始 的 像素 值 特征 转换 为 一 些 实际 的 concrete 特 征 ， 比 如 密度 、 对 称 性 等 等 ， 这 也 用 到 


了 feature transform 的 思想 。 


AC | 
EIA 
国 连 靶 罗 台电 轩辕 
UA A Ed 
ENA A 
00 的 [6 同 加 区] 
图 加 古国 回 回回 。 
一 一 





not new, not just polynomial: 
domain knowledge 下 2 
raw (pixels) 一 全 concrete (intensity, symmetry) 


三 、Price of Nonlinear Transform 


若 x 特 征 维度 是 d 维 的 ， 也 就 是 包含 d 个 特征 ， 那 么 二 次 多 项 式 个 数 ， 即 z 域 特征 维度 是 : 


dd 十 3 
CE 





d=1+0C1+C2+d= 


如 果 x 特 征 维度 是 2 维 的 ， 即 (zl , zz )， 那 么 它 的 二 次 多 项 式 为 (1, zl, x2, Z2, zl1Z2, Z2)， 有 6 


个 
| 。 


现在 ， 如 果 阶 数 更 高 ， 假 设 阶 数 为 Q， 那 么 对 于 x 特征 维度 是 d 维 的 ， 它 的 z 域 特征 维度 为 : 
a=00 EC EC 


由 上 式 可 以 看 出 ， 计 算 z 域 特征 维度 个 数 的 时 间 复 杂 度 是 Q 的 d 次 方 ， 随 着 Q 和 d 的 增 大 ， 计 算 量 
会 变 得 很 大 。 同 时 ， 空 间 复杂 度 也 大 。 也 就 是 说 ， 这 种 特征 变换 的 一 个 代价 是 计算 的 时 间 、 空 
间 复 杂 度 都 比较 大 。 


Q-th order polynomial transform: 中 co(X) = ( 





1 + ad dimensions 
pe 
Wo others 
=# ways of < Q-combination from a kinds with repetitions 


= (6") = (0") = 0(0") 


= efforts needed for computing/storing z = Po(x) and Ww 


Q large 一 difficult to compute/store | 


另 一 方面 ，z 域 中 特征 个 数 随 着 Q 和 d 增 加 变 得 很 大 ， 同 时 权重 w 也 会 增 大 ， 即 自由 度 增加 ，VC 
Dimension 增 大 。 令 z 域 中 的 特征 维度 是 1 十 4 ， 则 在 在 域 中 ， 任 何 d 十 2 的 输入 都 不 能 被 
shattered; 同样 ， 在 x 域 中 ， 任 何 d 十 2 的 输入 也 不 能 被 shattered。d 十 1 是 VC Dimension 的 
上 界 ， 如 果 df 十 1 很 大 的 时 候 ， 相 应 的 VC Dimension 就 会 很 大 。 根 据 之 前 章节 课程 的 讨论 ， 


VC Dimension 过 大 ， 模 型 的 泛 化 能 力 会 比较 差 。 


dimensions = O( Q°) 


。number of free parameters W; = d + 1~ dc (Ho,) 
® dc(He,) < d+1,why? 


any d + 2 inputs not shattered in Z 
—> any d + 2 inputs not shattered in XY 


Q large 一 > large ovc | 


下 面 通过 一 个 例子 来 解释 为 什么 VC Dimension 过 大 ， 会 造成 不 好 的 分 类 效果 : 





which one do you prefer? :-) ” (% 
e。 中 1 Visually preferred eA 
。 中 4: Ein(9) = 0 but overkill 
中 1 (original x) 中 4 


@ can we make sure that Eout(9) is close enough to Ein(g)? 
@ can we make Ein(g) small enough? 





上 图 中 ， 左 边 是 用 直线 进行 线性 分 类 ， 有 部 分 点 分 类 错误 ;右边 是 用 四 次 曲线 进行 非 线性 分 
类 ， 所 有 点 都 分 类 正确 ， 那 么 哪 一 个 分 类 效果 好 呢 ? 单 从 平面 上 这 些 训 | 练 数据 来 看 ， 四 次 曲线 
的 分 类 效果 更 好 ， 但 是 四 次 曲线 模型 很 容易 带 来 过 拟 合 的 问题 ， 虽 然 它 的 Bin 比 较 小 ， 从 泛 化 
能 力 上 来 说 ， 还 是 左边 的 分 类 器 更 好 一 些 。 也 就 是 说 VC Dimension 过 大 会 带 来 过 拟 合 问题 ， 
d 十 1 不 能 太 大 了 。 

那么 如 何 选择 合适 的 Q， 来 保证 不 会 出 现 过 拟 合 问题 ， 使 模型 的 泛 化 能 力 强 呢 ? 一般 情 况 下 ， 
为 了 尽量 减少 特征 自由 度 ， 我 们 会 根据 训练 样本 的 分 布 情况 ， 人 为 地 减少 、 省 略 一 些 项 。 但 
是 ， 这 种 人 为 地 删 减 特征 会 带 来 一 些 “ 自 我 分 析 ” 代 价 ， 虽 然 对 训练 样本 分 类 效果 好 ， 但 是 对 训 
练 样本 外 的 样本 ， 不 一 定 效果 好 。 所 以 ,一 般 情况 下 ， 还 是 要 保存 所 有 的 多 项 式 特征 ， 避 免 对 
训练 样本 的 人 为 选择 。 


Visualize 区 王 及 
6 
。 OrzZ= (1,xX?,»), avc = 3, after visualizing? 
。 or better z = (1,X? + X2), avc = 2? 
。 Or even better z = (sign(0.6 — x¢? — X2))? 


一 Careful about your brain’s ‘model complexity’ 





for VC-safety, 中 shall be 
decided without ‘peeking’ data | 


四 、Structured Hypothesis Sets 


下 面 ， 我 们 讨论 一 下 从 x 域 到 z 域 的 多 项 式 变 换 。 首 先 ， 如 果 特 征 维度 只 有 1 维 的 话 ， 那 么 变 
多 项 式 只 有 常数 项 : 


Bo(z) = (1) 

如 果 特 征 维度 是 两 维 的 ， 变 换 多 项 式 包含 了 一 维 的 ®0 (x) : 

B1(7) = (Bo(z), z1, rT2,..., Ta) 
如 果 特 征 维 度 是 三 维 的 ， 变 换 多 项 式 包 含 了 二 维 的 更 1 (7x): 

再 2(z) = (B1(72), TI, T1722,..., 23) 
以 此 类 推 ， 如 果 特 征 维度 是 Q 次 ， 那 么 它 的 变换 多 项 式 为 : 

Bo(z) = (Bo_1(2), 277, 20 za azd) 

那么 对 于 不 同 阶 次 构成 的 hypothesis 有 如 下 关系 : 

Hs, C Hs C Hs, CC Hs, 


我 们 把 这 种 结构 叫做 Structured Hypothesis Sets: 


Hoo Cs Hoe, Ce Ho, 性 Ho, KS jb。 


| | | | | 
Ho HI1 H2 Hs3 Ee Ho 





那么 对 于 这 种 Structured Hypothesis Sets， 它 们 的 VC Dimension 满 足下 列 关系 : 
dvc(Ho) < dve(Hi) < dve(H2) <::: < dvc(Ho) 
它 的 in 满足 下 列 关系 : 


Ein (go) > Ein(g91) > Bin(g92) > :> Bin (go) 


Co ) HI 72 H3 


Let g; = argminp ey, Ein(h): 


Ho C H1 CE Ho2 KE H3 
dc(Ho) < ac < dc(H2) < dc(Hs) 
En(9) => En(g1) > En(g2) > En(gs) 


IVIA 六 















out-of-sample error 


model complexity 


Error 


USe H1126 Wont be good! :-( 


in-sample error 


dsc VC dimension, dvc 


从 上 图 中 也 可 以 看 到 ， 随 着 变换 多 项 式 的 阶 数 增 大 ， 虽 然 瓦 "逐渐 减 小 ， 但 是 model 
complexity 会 逐渐 增 大 ， 造 成 byw 很 大 ， 所 以 阶 数 不 能 太 高 。 


那么 ， 如 果 选 择 的 阶 数 很 大 ， 确 实 能 使 i,, 接 近 于 0， 但 是 泛 化 能 力 通 常 很 差 ， 我们 把 这 种 情况 
叫做 tempting sin。 所 以 ,一 般 最 合适 的 做 法 是 先 从 低 阶 开始 ， 如 先 选择 一 阶 hypothesis， 看 看 
Bin 是 否 很 小 ， 如 果 Bin 足 够 小 的 话 就 选择 一 阶 ， 如 果 Bi, 大 的 话 ， 再 逐渐 增加 阶 数 ， 直 到 | 满 
足 要 求 为 止 。 也 就 是 说 ， 尽 量 选择 低 阶 的 hypothes ， 这 样 才能 得 到 较 强 的 泛 化 能 力 。 


。 tempting sin: use H1126, IOW Ein(91126) to fool your boss 
—really? :-( a dangerous path of no return 
e Safe route: XH1 first 


e if Ein(g1) good enough, live happily thereafter :-) 
e otherwise, move right of the curve 
with nothing lost except wasted computation 


linear model first: 
simple, efficient, safe, and workable! | 
五 、 总 结 


这 节 课 主要 介绍 了 非 线性 分 类 模型 ， 通 过 非 线性 变换 ， 将 非 线性 模型 映射 到 另 一 个 空间 ， 转 换 
为 线性 模型 ， 再 来 进行 线性 分 类 。 本 节 课 完整 介绍 了 非 线 性 变换 的 整体 流程 ， 以 及 非 线性 变换 





可 能 会 带 来 的 一 些 问 题 : 时 间 复 杂 度 和 空间 复杂 度 的 增加 。 最 后 介绍 了 在 要 付出 代价 的 情况 
下 ， 使 用 非 线 性 变换 的 最 安全 的 做 法 ， 尽 可 能 使 用 简单 的 模型 ， 而 不 是 模型 越 复杂 越 好 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 


